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一 种 知识 库 体 系 的 设计 构建 方法 及 在 媒体 领域 的 应 用 探索 


摘 要 : 随 着 各 国政 府 对 知识 库 的 日 益 重 视 和 大 力 推 动 ， 涌 现 了 大 量 公共 组 织 探索 基于 开放 数据 的 知识 库 构 建 ， 具 有 代表 性 
的 如 开放 链接 数据 (LOD ) 项 目 、 在 线 关联 数据 知识 库 DBPedia 项 目 等 。 在 企业 工程 领域 ，Google、 百 度 、 搜 狗 等 也 纷纷 投 
身 于 大 规模 本 体 知 识 库 的 研究 中 。 随 着 公共 知识 库 的 开放 ， 众 多 旨 在 将 知识 库 应 用 于 不 同业 务 领 域 的 领域 知识 库 研究 也 逐渐 
开展 。 本 文 提 出 了 一 种 旨 在 针对 媒体 应 用 领域 的 知识 库 体 系 设 计 构 建 方法 ， 构 建 了 重点 媒体 知识 库 、 重 点 人 物 知识 库 、 重 点 


事件 知识 库 、 业 务 关 键 词 知识 库 、 业 务 知识 百科 库 等 几 大 知识 库 群 ， 详 细 介 绍 了 知识 库 构 建 的 几 大 关键 技术 ， 并 对 知识 库 在 


媒体 领域 的 应 用 场景 进行 了 重点 阐述 。 
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于 大 规模 本 体 知 识 库 的 研究 中 。 比较 著名 的 有 “Knowledge 
Graph”( Google ) 、“ 知 心 ”( 百度 ) 以 及 “ 知 立方 ”( 搜 
狗 ) 等 。 其 通过 整合 海量 的 互联 网 碎片 化 信息 ， 并 将 基 
于 围绕 关键 字 的 搜索 结果 知识 方式 聚合 在 一 起 ， 形 成 知 
识 集群 ， 对 搜索 结果 进行 重新 优化 计算 ， 将 最 核心 的 信 
息 展 现 给 用 户 。 

随 着 公共 知识 库 的 开放 ， 众 多 旨 在 将 知识 库 应 用 在 
不 同业 务 领 域 的 领域 知识 库 研 究 也 逐渐 开展 。 比 如 基于 
案例 推理 的 知识 库 系 统 对 相关 案例 的 知识 进行 提取 整理 ， 
能 够 为 用 户 输入 的 问题 推荐 相似 方案 与 可 参考 内 容 。 基 
于 本 体 的 专题 域 知识 库 系统 通过 对 专题 业务 资料 进行 数 
字 化 语义 处 理 ， 并 按照 本 体 论 思 想 进 行 分 类 标注 ， 实 现 
该 业务 领域 研究 的 知识 集成 、 知 识 共 享 、 知 识 发 现 和 知 
识 重用 。 

2. 知识 库 总 体 架构 

在 媒体 领域 ,相关 知 识 库 技术 及 应 用 的 研究 早已 开 
展 ， 并 取得 了 一 定 的 成 果 。 如 下 是 一 种 知识 库 体系 的 总 
体 设计 框架 ,由 基础 设施 层 、 数 据 资 源 层 、 关 键 技 术 层 、 


池 


1 知识 库 系统 总 体 架 构图 


基础 环境 层 主要 提供 各 种 所 需 的 计算 资源 、 存 储 资 
源 、 网 络 资源 以 及 在 此 基础 上 搭建 起 来 的 大 数据 基础 应 
用 。 通 过 提供 关系 型 数据 库 、 文 档 知 识 存储 数据 库 、 消 
息 队 列 和 缓存 等 各 种 存储 形式 ， 实 现 将 不 同类 型 的 数据 
按照 其 自身 特点 和 业务 需求 进行 分 类 存储 ， 从 而 满足 系 
统 实时 性 需求 以 及 系统 的 分 布 式 响应 架构 。 

数据 资源 层 主要 从 业务 层面 提供 各 种 与 上 层 功能 相 
关 的 各 类 数据 资源 的 规范 存储 功能 ， 并 提供 系统 必需 的 
如 消息 队列 、 缓 存 资源 等 系统 数据 的 统一 存储 。 

关键 技术 层 提供 实现 系统 所 需 的 核心 支撑 技术 系统 ， 
提供 知识 描述 与 获取 、 知 识 图 谱 、 知 识 库 构建 与 分 析 研 
判 等 关键 技术 。 

功能 层 主要 提供 面向 业务 人 员 的 数据 分 析 与 展示 功 
能 ， 以 及 面向 标注 人 员 的 人 机 交互 界面 。 构 建 重点 媒体 
知识 库 、 重 点 人 物 知识 库 、 重 点 事件 知识 库 、 业 务 关 键 


202310.01510v1 


chinaXiv 


词 知 识 库 、 业 务 知识 百科 库 五 大 知识 库 。 每 个 知识 库 将 
实现 统一 的 知识 描述 方式 、 分 类 与 组 织 体系 、 评 价 指标 
体系 ， 最 大 化 兼容 现 有 知识 库 和 功能 模块 。 每 个 知识 库 
具有 知识 提取 、 标 注 、 评 估 和 维护 等 功能 ， 同 时 面向 标 
注 人 员 建 立 评价 体系 。 

基于 五 大 知识 库 构 建 相 关 分 析 研 判 功 能 ， 包 括 知识 
联想 与 推演 、 实 现 业 务 统 计 与 分 析 功 能 。 对 重要 事件 进 
行 地 域 分 布 、 时 间 周 期 、 人 物 分 布 、 规 律 控 气 、 趋 势 预 
判 等 分 析 。 
3. 知识 库 构 建 关键 技术 

知识 库 构 建 关键 技术 主要 包括 : 知识 表示 、 知 识 获取 、 
知识 图 谱 、 知 识 持 久 化 和 知识 评价 等 几 个 方面 。 
3. 1 知识 模式 构建 

知识 表示 是 知识 获取 与 应 用 的 基础 ， 目 前 最 常用 的 
是 基于 本 体 的 知识 表示 方法 。 本 体 是 对 领域 实体 存在 本 
质 的 抽象 ， 它 强调 实体 间 的 关联 ， 并 通过 多 种 知识 表示 
元 素 将 这 些 关 联 表 达 和 反映 出 来 ,这些 知识 表示 元 素 也 
被 称 为 原本 体 ， 主 要 包括 : (1 ) 概念 ; (2 ) 属性 ; (3) 
关系 ; (4) 困 数 ;， (5 ) 公理 ; (6) 实例 。 总 的 来 说 ， 
构造 本 体 的 目的 是 为 了 实现 某 种 程度 的 知识 共享 和 重 
用 : (1) 本 体 分 析 澄 清 了 领域 知识 的 结构 ， 从 而 为 知 
识 表 示 打 好 基础 。 本 体 可 以 重用 ， 从 而 避免 重复 的 领域 
知识 分 析 。( 2 ) 统一 的 术语 和 概念 使 知识 共享 成 为 可 能 。 

根据 知识 来 源 数据 类 型 的 不 同 ， 对 知识 进行 分 类 ， 
形成 重要 媒体 、 重 要 人 物 、 重 要 事件 、 业 务 关 键 词 、 业 
务 知识 百科 五 大 类 别 的 知识 库 ， 每 一 类 知识 库 可 进一步 
详细 分 类 。 采 用 知识 树 的 方法 对 知识 进行 组 织 ， 在 每 一 
层 中 ， 知 识 节 点 与 其 相 邻 常 点 在 粒度 上 保持 一 致 。 层 次 
越 高 ， 粒 度 越 大 ; 层次 越 低 ， 粒 度 越 小 。 系 统 根据 用 户 
业务 经 验 针 对 每 一 类 知识 设置 对 应 的 树 形 知识 体系 。 
户 可 对 该 体系 进行 编辑 ， 添 加 或 删除 节点 ， 并 可 对 节点 
名 称 进行 重 置 。 
3. 2 知识 评价 体系 构建 

知识 评价 体系 是 对 已 有 知识 质量 评估 的 制度 ， 拟 从 
完整 度 、 有 效 性 和 相关 度 三 个 方面 进行 评价 。 知 识 的 完 
整 性 由 系统 根据 知识 条 目 属性 填充 的 完整 性 直接 计算 得 
出 ， 完 整 性 计算 规则 为 : 权重 * 得 分 。 需 与 业务 人 员 革 
同 商议 确定 不 同类 别 知识 属性 的 权重 值 及 分 值 ， 基 于 
给 出 每 一 个 知识 条 目 完 整 度 百 分 比 。 知 识 的 有 效 性 是 上 
系统 与 业务 人 员 交 互 得 到 。 业 务 人 员 查 看 某 一 知识 条 目 
时 , 可 以 对 该 知识 的 有 用 性 进行 评价 , 点 击 “ 有 用 ”或 “无 
用 ”按钮 ， 系 统 会 实时 显示 每 一 知识 条 目的 有 用 性 数量 
分 布 情况 。 相 关 性 与 有 用 性 相似 ， 由 业务 人 员 评 价 某 一 
知识 条 目 是 否 与 业务 相关 ， 指 定 相 关 值 。 若 有 多 人 对 统 
一 知识 条 目 进行 相关 性 评价 时 ， 采 用 平均 值 进行 显示 。 
3. 3 知识 获取 

知识 获取 包括 : 知识 提取 、 知 识 标注 和 知识 维护 等 
技术 。 

构建 知识 库 的 过 程 ， 即 是 从 结构 化 和 非 结 构 化 的 数 
据 资 源 中 提取 知识 的 过 程 。 结 构 化 知识 获取 指 从 特定 格 
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式 的 数据 ， 例 如 结构 化 数据 库 记 录 、HTML、XML 等 含 
有 标签 的 半 结 构 化 数据 中 进行 解析 ， 从 而 获得 多 个 知识 
实体 及 其 详细 属性 ， 以 及 知识 实体 间 存 在 的 关联 关系 。 
非 结构 化 知识 获取 指 对 导入 的 文本 类 材料 提取 文档 中 提 
及 的 实体 与 关系 、 要 素 关 键 词 与 文档 摘要 等 ， 通 过 自动 
识别 抽取 内 容 的 类 别 将 其 存储 到 不 同 的 知识 条 目 集合 中 。 
支持 的 格式 包括 TXT、Word、Excel、PDF 等 多 种 形式 。 

系统 支持 人 工 对 知识 库 的 词 条 进行 标注 与 维护 ， 知 
识 标注 可 采用 众 包 方式 。 标 注 人 员 可 通过 右键 选中 某 实 
体 对 其 进行 标注 , 标注 的 知识 在 多 个 数据 源 中 互联 互通 。 
若 待 标注 的 知识 已 存在 于 知识 库 中 ， 则 智能 提示 补 全 ， 
节约 标注 时 间 , 提高 标注 效率 , 保证 标注 的 统一 性 。 同 时 ， 
针对 每 个 知识 实体 ， 以 可 视 化 的 形式 对 与 该 实体 存在 直 
接 关 系 的 关联 实体 进行 展示 ， 并 支持 对 该 实体 的 关联 实 
体 及 关联 关系 的 可 视 化 编辑 。 

支持 多 个 用 户 对 知识 实体 的 协同 工作 ， 用 户 修改 实 
体 属 性 后 ， 提 交 修 改 时 如 果 数 据 库 中 版 本 与 用 户 修改 前 
版 本 不 一 致 ， 系 统 提醒 用 户 可 能 产生 冲突 。 用 户 需 获取 
新 版 本 , 并 在 此 基础 上 进行 修改 与 提交 ， 以 保持 一 致 性 。 
3. 4 知识 图 谱 

知识 图 谱 将 研究 知识 的 关联 、 联 想 与 推演 方法 ， 实 
现 知 识 推 汝 和 研判 等 应 用 模式 。 

知识 关联 分 析 对 知识 库 实体 间 的 关联 关系 进行 挖掘 
与 展示 ， 以 网 络 图 谱 的 形式 在 离散 的 知识 节点 之 间 建 立 
关联 关系 ， 当 点 击 关 联 图 中 的 某 一 节点 时 显示 关于 该 节 
点 的 详细 信息 。 系 统 中 的 知识 关联 不 仅 支 持 同 类 别 的 知 
识 实体 联系 , 同样 支持 重点 人 物 、 历史 事件 、 业务 关键 词 、 
业务 知识 百科 等 跨 通道 知识 实体 的 关联 。 

知识 联想 是 为 了 提高 业务 人 员 在 使 用 知识 库 过 程 中 
的 知识 检索 效率 而 提出 的 。 目 前 ， 大 多 数 的 信息 检索 采 
用 全 文 检索 技术 ， 检 索 策 略 均 建 立 在 对 于 关键 词 的 词 频 
统计 学 规律 上 。 基 于 知识 联想 的 检索 根据 用 户 搜索 内 容 
推荐 与 该 词语 义 相 近 的 知识 条 目 ， 为 用 户 提供 备 选 项 。 

知识 推演 将 根据 知识 关联 图 谱 中 已 有 的 知识 ， 推 出 
新 的 、 未 知 的 知识 ， 以 提高 知识 的 完备 性 ， 扩 大 知识 的 
履 盖 面 ， 比 如 同类 型 知识 搜索 、 关 系 预 测 等 业务 场景 。 
3. 5 知识 持久 化 技术 

知识 持久 化 技术 的 目的 是 将 构建 出 的 知识 库 进 行 持 
久 化 存储 。 目前， 知识 图 谱 中 的 数据 主要 采用 基于 语义 
的 XML 文档 规范 、 结 构 化 数据 库 等 存储 手段 进行 持久 化 
存储 。 上 述 存 储 手 段 在 进行 大 规模 知识 子 图 查询 的 过 程 
1， 无 法 在 线性 时 间 内 实现 知识 的 快速 查询 。 为 了 加 快 
查询 速度 ， 现 有 查询 算法 普遍 采用 图 索引 技术 ， 但 是 知 
识 图 谱 的 数据 规模 大 ， 为 其 建立 图 索引 需 耗 费 大 量 的 时 
间 和 空间 开销 ， 从 而 导致 用 户 难 以 快速 获取 满意 的 查询 
结果 。 针 对 以 上 特征 ， 我 们 采用 基于 图 结构 ( Graph ) 存 
储 的 知识 持久 化 方案 ， 实 现 快速 高 效 的 知识 图 谱 存 储 与 
查询 。 在 分 布 式 图 数据 处 理 平台 的 基础 上 ， 采 用 新 型 的 
知识 图 谱 查 询 模型 、 算 法 和 计算 平台 分 别 从 知识 图 谱 查 
询 模型 、 分 布 式 查询 算法 、 分 布 式 查 询 执行 优化 三 个 方 
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面 对 知 识 进行 持久 化 ， 并 提供 快速 高 效 的 新 型 分 布 式 查 
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发 生 事件 预测 显示 未 来 指定 时 间 段 内 可 能 发 生 的 事件 及 


询 技术 。 
4. 知识 库 在 媒体 领域 的 应 用 探索 
基于 上 述 构建 的 重点 媒体 知识 库 、 重 点 人 物 知 识 库 、 
重点 事件 知识 库 、 业 务 关键 词 知识 库 、 业 务 知识 百科 库 
等 儿 大 知识 库 体系 ， 除 能 够 直接 提供 相关 知识 的 检索 和 
推荐 外 ， 还 能 够 提供 知识 联想 与 推演 、 启 发 式 搜索 、 个 
性 化 推荐 、 选 题 深度 策划 、 事 件 深度 分 析 、 趋 势 预 测 、 
机 器 阅读 、 机 带 写 作 等 多 种 丰富 的 分 析 应 用 功能 ， 可 应 
用 于 各 种 新 闻 生产 应 用 场景 。 
4.1 启发 式 搜索 

对 于 采编 人 员 或 信息 分 析 员 而 言 ， 很 多 时 候 对 想 要 
搜索 的 信息 并 不 是 非常 确定 ， 因 此 会 先 设 定 一 个 大 致 的 
分 析 目 标 ， 从 海量 信息 中 初 租 ， 然 后 从 初 得 结果 中 再 调 
整 关键 词 进一步 搜寻 更 精准 的 内 容 ， 在 这 个 过 程 中 ， 通 
过 业务 领域 知识 之 间 的 关联 关系 ， 可 以 通过 知识 联想 进 
行 相 关 知 识 推荐 ， 从 而 帮助 用 户 从 点 到 面 逐 步 进行 信息 
的 关联 分 析 和 深度 挖掘， 支持 这 种 探索 方式 的 搜索 我 们 
可 以 叫 作 启发 式 搜索 。 比 如 围绕 搜索 飞机 失事 ， 将 相关 
联 信 息 进行 推荐 ， 如 飞机 失事 的 历年 历史 事件 追踪 、 发 
动机 、 航 空 航天 、 相 关 制 造 公 司 、 相 关 金 融 股票 信息 等 ， 
通过 对 大 数据 基于 业务 知识 关联 性 的 探索 ， 得 到 更 为 广 
泛 的 分 析 角 度 ， 从 而 挖掘 出 更 高 附加 值 的 信息 ， 加 大 深 
度 报道 产品 在 社会 生活 、 政 治 、 产 业 、 人 金融 等 各 个 领域 
的 服务 价值 。 
4. 2 选 题 策划 深度 分 析 

在 采编 人 员 针 对 一 个 或 一 组 选 题 进行 策划 的 时 候 ， 
只 推荐 出 描述 上 相似 的 内 容 很 多 时 候 是 远 远 不 够 的 ， 用 
户 更 希望 能 够 挖掘 出 选 题 全 新 的 角度 ， 通 过 从 业务 领域 
之 间 的 知识 关联 上 给 予 知 识 联想 和 推荐 ， 这 对 于 一 个 深 
度 报道 、 数 据 新 闻 和 智库 咨询 的 策划 是 更 具有 价值 的 。 
比如 针对 雾 狂 的 报道 ， 如 果 能 够 超出 雾 狂 本身 ， 控 掘 分 
析 雾 狂 关 联 的 中 国 能 源 消耗 结构 、 产 业 结构 和 布局 ， 以 
及 拓展 到 历年 国内 各 项 宏观 调控 政策 的 影响 甚至 到 海外 
能 源 期 货 大 宗 市 场 交易 情况 等 ， 将 会 大 大 提升 这 类 报道 
内 容 挖掘 分 析 的 广度 和 深度 ， 提 供 其 他 简单 同 质 化 报道 
所 不 具有 的 全 面 性 和 创新 性 ， 从 而 大 大 提升 媒体 报道 产 
品 的 专业 化 水 平和 公众 影响 力 。 
4. 3 事件 深度 分 析 

利用 媒体 行业 多 维度 标签 体系 ， 为 海量 新 闻 事 件 进 
行 多 维度 知识 标 引 ， 实 现 具有 共 指 关系 新 闻 内 容 的 专题 
聚合 ， 基 于 知识 驱动 进行 各 种 维度 的 深入 分 析 ， 包括 事 
件 发 生地 点 、 发 生 时 间 、 事 件 发 生 主 体 、 事 件 相 关 主 体 、 
事件 同 源 关 系 、 事 件 因果 关系 、 事 件 时 空 关 系 、 事 件 首 
发 媒体 、 事 件 涉及 的 相关 政策 法 规 ， 跟 踪 事 件 发 展 过 程 
中 每 天 的 子 话题 演变 过 程 ， 并 分 析 国 内 外 重要 人 物 、 重 
要 媒体 、 重 要 机 构 关 于 该 事件 所 发 表 的 观点 评述 。 

趋势 预测 提供 在 未 来 可 能 发 生 的 重点 事件 以 及 可 能 
发 生 的 概率 。 根 据 具体 业务 需求 ， 可 包括 未 来 发 生 事件 
预测 、 关 键 词 热 度 趋 势 预 测 、 敏 感 事件 信息 预测 。 未 来 


相关 信息 和 发 生 概 率 等 ， 关 键 词 热度 趋势 显示 与 该 事件 
相关 的 关键 词 在 指定 时 间 段 内 的 变化 趋势 ; 敏感 事件 预 
测 可 提供 在 未 来 可 能 发 生 的 敏感 事件 及 相关 信息 ; 用 户 
可 自 定义 时 间 段 来 对 指定 时 间 段 内 的 趋势 进行 预测 。 
4.4 机 器 阅读 

机 器 阅读 指 用 机 器 自动 化 完成 以 前 需要 人 来 阅读 理 
解 的 过 程 。 机 器 阅读 目前 比较 常见 的 任务 形式 是 人 工 合 
成 问答 、 实 体 补 全 和 备 选 答案 预测 。 人 工 合成 问答 是 经 
业务 人 员 事 先 构造 好 由 若干 简单 事实 形成 的 语 料 以 及 相 
对 应 的 问题 ， 由 机 器 阅读 理解 文章 内 容 并 进行 一 定 的 推 
理 ， 从 而 得 出 正确 答案 ; 实体 补 全 是 在 机 器 阅读 并 理解 
语 料 后 ， 对 机 器 提出 相关 问题 ， 而 问题 往往 是 文章 中 抽 
掉 实 体 词 的 句子 ， 机 器 回答 问题 的 过 程 就 是 预测 问题 句 
子 中 被 抽 掉 的 实体 词 ; 备 选 答案 预测 是 机 器 依据 文章 、 
文章 的 相应 问题 及 候选 答案 ， 经 过 理解 和 推理 ， 在 候选 
答案 中 预测 出 正确 答案 。 通 过 建立 标准 化 的 实体 标签 ， 
构建 知识 图 谱 和 领域 知识 库 ， 能 够 较 好 地 支持 机 器 阅读 
上 述 相关 功能 的 实现 。 
4.5 机 器 写作 

机 器 写作 是 一 种 内 容 生 产 的 自动 化 趋势 ， 即 基于 算 
法 的 内 容 生 产 和 编辑 的 过 程 。 计 算 机 可 根据 给 定 的 特定 
主题 ， 基 于 特定 的 算法 在 已 有 的 备 选材 料 库 中 选择 待 组 
合 的 内 容 ， 通 过 获取 数据 、 分 析 数 据 、 提 和 炼 观点 后 以 某 
种 特定 的 格式 自动 生成 内 容 。 

在 上 述 获取 数据 和 分 析 数 据 阶 段 ， 知 识 库 可 以 提供 
机 需 获 取 到 的 特定 主题 相关 的 数据 以 及 资料 中 所 提 及 的 
与 知识 库 中 的 知识 条 目 相关 的 内 容 信息 ， 用 于 支撑 机 器 
写作 过 程 中 的 前 期 数据 支撑 ， 同 时 ， 能 够 基于 已 知 的 历 
史 知 识 对 其 写作 结果 内 容 进行 丰富 。 在 提炼 观点 的 过 程 
中 ， 知 识 库 的 知识 条 目标 签 还 可 以 为 观点 提炼 提供 基础 
数据 支撑 ， 提 高 对 数据 中 重要 观点 的 提炼 效果 。 嘻 
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